现有的图像到图像翻译技术通常遭受了两个关键问题:严重依赖按样本域注释和/或无法处理每个图像的多个属性。最近的方法采用聚类方法来轻松以无监督的方式提供样本注释。但是,他们无法解释现实环境。一个样本可能具有多个属性。此外,集群的语义不容易与人类的理解相结合。为了克服这些,我们提出了一种语言驱动的图像到图像翻译模型,称为LANIT。我们利用文本中给出的易于访问的候选域注释,并在培训期间共同优化它们。目标样式是通过根据多热域分配汇总多域样式向量来指定的。由于最初的候选域文本可能不准确,因此我们将候选域文本设置为可学习的,并在培训期间共同对其进行微调。此外,我们引入了一个松弛域,以涵盖候选域未覆盖的样品。对几个标准基准测试的实验表明,LANIT与现有模型具有可比性或优越的性能。
translated by 谷歌翻译